Chacun des molécules biologiques ADN, ARN et protéines interviennent dans la transmission de l’information génétique et sont indispensable à tout être vivant. La modélisation structurelle de l’ADN, de l’ARN et des protéines nous permet de comprendre leur fonction, ce qui a des implications dans de nombreux domaines, tels que l’agriculture et la médecine. (1)
La réussite de la modélisation structurelle informatique dépend sur des données nombreuses et équilibrées, ainsi que sur des annotations de qualité. Bien que des progrès significatifs aient été réalisés dans la prédiction de la structure de l’ADN et des protéines, la modélisation de l’ARN demeure plus compliquée en raison du nombre limité de données disponibles et de ses propriétés structurelles, telles que ses motifs. (2)
Nous présenterons les raisons pour lesquelles la complexité de la structure de l’ARN rend sa prédiction difficile, ainsi que les différents outils existants pour l’identifier et la prédire.
Les structures d’ADN et de protéines sont généralement plus faciles à prédire que celles de l’ARN puisqu’elles présentent des structures beaucoup plus consistantes et rigides. En effet, l’ADN présente une structure uniforme de double hélice très prévisible qui consistent d’une série répétitive de paires de bases nucléotidiques suivant des règles d’appariement Watson-Crick (A-T, C-G). Elle suit des règles de géométrie simples qui rendent sa structure stable à l’aide d’interactions hydrophobes et de Van der Waals. De ce fait, la stabilité de la structure de l’ADN permet la conservation de l’information génétique. Ses propriétés de superposition, donc l’empilement des bases azotées les unes sur les autres au centre de la double hélice (Figure 2.1 (gauche)), facilitent grandement la modélisation. (3)
Les structures de protéines, quant à eux, bénéficient d’un large éventail de données disponibles. La Protein Data Bank (PDB) contient plus de 200 000 structures de protéines annotées, alors qu’il en existe seulement 10 000 pour les structures de l’ARN. Le repliement des protéines est plus prévisible que celui de l’ARN, se basant sur la séquence primaire de la chaîne d’acides aminés. De plus, les protéines contiennent de l’information évolutif, aidant fortement les algorithmes de prédiction à inférer les séquences d’acides aminés en utilisant des alignements de séquences multiples. (6) Les ARNs sont moins annotés que les protéines, surtout puisqu’il est chimiquement plus difficile d’entreprendre des expériences de cristallographie pour définir leurs structures. (2)
La modélisation de l’ARN est difficile, notamment à cause de sa structure. Elle présente une seule chaîne de nucléotides, donc nous perdons les propriétés de superposition (Figure 2.1 (droite)) offertes par l’ADN (plus possible d’avoir une structure constante de double hélice parfaite). Cette chaîne de nucléotides permet aux interactions d’appariement de bases de se produire entre les nucléotides d’un même brin. Les motifs structurels, comme les hélices et les boucles, sont des éléments de structure secondaire assemblés à partir de paires de bases Watson-Crick (A-U et C-G) (Figure 3.1 (gauche)) et de paires de bases wobble (G-U). (7)
Figure 3.1: (gauche) Paires de bases Watson-Crick d’ARN (8); (droit) Example d’une paire de base non-Watson-Crick, W-C/Hoogsteen (9)
Bien que l’appariement des bases soit souvent considéré en termes de paires Watson-Crick, d’autres appariements sont également possibles. (10) Les paires de bases non-Watson-Crick impliquent différentes interactions nucléotidiques de l’appariement Watson-Crick. Les éléments structuraux secondaires s’assemblent principalement à l’aide de paires de bases non-Watson-Crick (Figure 3.1 (droite)) pour former des structures tertiaires, tels que des kink-turns ou A-mineurs.
Ces structures, appelées modules d’ARN, sont caractérisées par des ensembles de paires de bases non-Watson-Crick orientées et ordonnées. Les paires de bases non-Watson-Crick jouent un rôle important dans la stabilisation de la structure tertiaire de l’ARN. Les modules ont aussi d’autres rôles fonctionnels importants dans les molécules d’ARN, comme servir de sites de liaison aux protéines et à l’ARN. (11)
Les modules apparaissent de façon récurrente dans différents ARN. On suppose que le même module présent dans différentes structures d’ARN a une importance fonctionnelle. (12) Par example, Il y a 83 957 (trouvé sur CaRNAval (Figure 3.3)) occurrences du module représenté dans la Figure 3.2 (gauche), comme par exemple dans le ribosome 1VQM (Figure 3.2 (droite)).
Figure 3.3: Les occurrences du RIN-2 (A-Minor Type I) (13)
L’ARN peut également interagir entre lui (ARN-ARN) ou avec d’autres molécules (ARN-ADN, ARN-protéines), formant des structures quaternaires, comme les ribosomes ou les spliceosomes. (7)
Une façon de modéliser la structure secondaire de l’ARN est d’utiliser la notation Dot-Bracket du package ViennaRNA. Dans cette notation, les nucléotides appariés sont représentés par des brackets () - ou «parenthèses» - et non appariés par des dots . - ou «points». Par example, la notation Dot-Bracket du modèle d’ARN, 3E5C, ressemble à ceci :
GUUCCCGAAAGGAUGGCGGAAACGCCAGAUGCCUUGUAACCGAAAGGGGGAAU
((((((..((((.(((((....)))))....))))....((....))))))))
The image on the right of Figure 4.1 represents the drawn secondary structure. We used ViennaRNA Web Services to visualize the structure. The parentheses represent paired bases (green) and the dots represent unpaired regions such as multiloops (red), interior Loops (yellow) and hairpin loops (blue.)
Figure 4.1: (gauche) La structure secondarie de l’ARN 3E5C dessinée en utilisant ViennaRNA Web Services; (droit) La structure tertiare de l’ARN 3E5C tirée du PDB (15)
Cependant, l’ARN ?goes beyond? sa structure secondaire. L’ARN est capable de former des structures tertiaires impliquant des paires de bases non-Watson-Crick, as shown by the green dots in Figure 4.1 (droit). Ces structures tertiaires peuvent être représentées sous forme de graphes.
Le modèle Leontis-Westhof classe les configurations géométriques des paires de bases en 12 classes selon les arêtes impliquées. (16)
Figure 4.2: RIN-17 tirée du CaRNAval (13)
Le RNA 3D Hub est une meta base de donnée spécialisée développée par le BGSU RNA Structural Bioinformatics Group à l’université Bowling Green State. Il est organisé en plusieurs outils et bases de données permettant une analyse et une compréhension assidue des structures d’ARN, englobé dans un seul endroit. Il est constitué de 4 catégories:
RNA Structure Atlas contient des annotations d’appariement et d’empilement de bases, ainsi que d’interactions base-squelette dans les ARN ayant des structures 3D qui contiennent des fichiers PDB. Ces annotations sont générées par l’outil FR3D (Find RNA 3D), un programme qui cherche des structures 3D géométriquement et symboliquement, lancé par Sarver et al. en 2008. (17). Il est mis à jour hebdomadairement.
Representative Sets est une liste non-redondante de structures 3D. La PDB contient plusieurs structures identiques ou très similaires pour la même molécule du même organisme. Donc, le RNA 3D Hub regroupe dans cette liste des classes d’équivalence de séquences/structures et choisit la meilleure version pour représenter le groupe. Elle est utile lorsqu’il faut entraîner des données ou faire une recherche sur la base de donnée de structures 3D d’ARN entière.
RNA Motif Atlas est une large collection de motifs d’épingle à cheveux, interne, de jonctions et de boucles multi-hélice extraits des Representative Sets des structures 3D d’ARN en utilisant FR3D à nouveau. Des groupes de motifs similaires en termes de géométrie et d’interactions d’appariement de bases sont crées par regroupement hiérarchique. Ces derniers sont définis par des identifiants uniques et stables.(18)
Resources contient divers autres outils, dont WebFR3D, JAR3D et R3D.
BayesPairing2 est un algorithme conçu par Roman Gendron Sarazin et al.. Cet outil assure une recherche assidue de modules de ARNs dans des séquences. Il remplace son prédécesseur, BayesPairing 1, en assurant une meilleure précision et flexibilité. Cet outil permet l’analyse des structures d’une séquence d’ARN donnée à l’aide d’échantillonnage stochastique de structures secondaires. Il utilise cette information pour ensuite identifier des sites d’insertion de modules potentiels et sélectionner des modules qui peuvent se présenter dans ce contexte structural. De sorte. cela lui permet de réduire le nombre de faux positifs et de rechercher plusieurs modules à la fois. Il peut également entreprendre des recherches à partir d’alignements de séquences.
Pour les paires de bases canoniques, à l’équilibre thermodynamique, il est attendu qu’une séquence d’ARN ait un comportement stochastique et qu’elle puisse adopter quelconques de ses structures secondaires compatibles avec elle-même en respectant les règles canoniques d’appariement de bases Watson-Crick/Wobble avec une probabilité proportionnelle à son facteur de Boltzmann. Ce dernier détermine la probabilité d’un système physique occupant un état d’énergie spécifique à une température donnée.
Puisqu’il n’y a présentement pas de données thermodynamiques associées aux paires de bases non-canoniques et leurs modules, BayesPairing2 utilise une approche probabiliste pour leur modélisation. Il génère un réseau bayésien pour chaque module et les séquences qui peuvent le contenir. Les structures de ces réseaux sont dérivées de paires de bases contenues dans des motifs 3D récurrents et sont regroupées géométriquement. Les réseaux subissent ensuite une décomposition arborescente de sorte à minimiser les dépendances des différentes positions du module entre elles, tout en préservant les probabilités d’émission. Puis, à l’aide de pseudo-comptes, les probabilités d’émission conditionnelles de maximum de vraisemblance sont identifiées pour chaque module. (19)
Pour tester les outils et comprendre leurs différences, nous avons décidé de comparer les différentes bases de données comprises dans Bayespairing2. Nous avons essayé d’utiliser celle de cantaloops_carnaval_v5, mais elle générait à chaque reprise l’erreur IndexError: list index out of range. Donc, pour notre expérience, nous allons comparer les différents résultats que peuvent émettre les bases de données intégrées dans l’outil. Celles-ci comprennent:
RELIABLE: Un sous-ensemble de 60 modules provenant du RNA 3D Motif Atlas avec le plus grand nombre d’occurrences et la plus grande variation de séquence.
rna3dmotif: Un ensemble de données des 75 modules les plus récurrents dans la PDB. Recherche entreprise avec rna3dmotif.
ALL: Un ensemble de tous les modules qui ont pu être convertis des modèles de 3D Motif Atlas à ceux de BayesPairing2 (426 au total)
tdma388_KT: Un ensemble spécialisé des modules ayant un motif Kink-Turn. Utile lorsque nous voulons identifier spécifiquement ce motif. Pour notre expérience, nous avons employé uniquement les trois derniers ensembles mentionnés ci haut.
Puisque nous avons uniquement identifié les séquences de nucléotides, BayesPairing2 a entrepris un échantillonnage non redondant des structures secondaires de l’ensemble complet en utilisant RNAsubopt. La librairie htd entreprend la décomposition arborescente des modules et les probabilités conditionnelles sont apprises à l’aide de pgmpy. (20)
Les scores des modules représentent un ratio de rapport de vraisemblance reflétant la probabilité de la séquence dépendamment du module. Un score élevé indique une très grande similarité à un motif 3D connu dans l’ensemble de donnée utilisé. Nous avons ensuite identifié les motifs visuellement (normalement il est possible de mapper les modules à leurs motifs, mais nous avons rencontré un problème avec certains scripts que ne n’avons malheureusement pas pu troubleshoot). Nous les avons aussi validés en rentrant les séquences sur JAR3D, un autre outil qui peut identifier des motifs dans des séquences d’ARN.
GUAA tetraloop mutant of Sarcin/Ricin domain from E. Coli 23 S rRNA (PDB 1MSY)
>1MSY_1|Chain A|SARCIN/RICIN DOMAIN FROM 23 S RRNA|null
UGCUCCUAGUACGUAAGGACCGGAGUG
Figure 6.1: De gauche à droite: Structure 2D de la séquence inférée à l’aide des ensembles RELIABLE, rna3dmotif_jan2025 et ALL, respectivement.
61 nt human Hepatitis B virus epsilon pre-genomic RNA (PDB 6VAR)
>6VAR_1|Chain A|RNA (61-MER)|Hepatitis B virus (10407)
GGUUCAUGUCCUACUGUUCAAGCCUCCAAGCUGUGCCUUGGGUGGCUUUGGGGCAUGGACC
Figure 6.2: De haut en bas: Structure 2D de la séquence inférée à l’aide des ensembles RELIABLE, rna3dmotif_jan2025 et ALL, respectivement.
Crystal structure of an E. coli thi-box riboswitch bound to thiamine pyrophosphate, manganese ions (PDB 2HOJ)
>2HOJ_1|Chain A|thi-box riboswitch|null
GCGACUCGGGGUGCCCUUCUGCGUGAAGGCUGAGAAAUACCCGUAUCACCUGAUCUGGAUAAUGCCAGCGUAGGGAAGUCGCA
Figure 6.3: De haut en bas: Structure 2D de la séquence inférée à l’aide des ensembles RELIABLE, rna3dmotif_jan2025 et ALL, respectivement.